Estadística Descriptiva y Análisis Exploratorio de Datos

Joshua Kunst

Estadística Descriptiva y Análisis Exploratorio de Datos

Programa

Objetivos

Estadística Descriptiva y AED

Estadística Descriptiva y AED

Es un conjunto de técnicas cya finalidad es entregar un entendimiento básico de los datos y de las relaciones entre las variables.

  1. ¿Como se distribuyen los datos (concentración/variablidad)?
  2. ¿Existen sesgo en los datos recogidos?
  3. ¿Existen relaciones entre las variables?
  4. ¿Existen datos átipicos?

Escuchar lo que los datos nos hablan

worflow

Tipos de Datos/Variables

Medidas de Tendencia y Variabilidad

Medidas de Tendencia y Variabilidad

Visualización

Visualización

Se refiere a la representación gráfica de los datos codificando la información o atributos como: posición, tamaño, formas, colores

viz

Ejemplo Anscombe’s Quartet

x1 x2 x3 x4 y1 y2 y3 y4
10 10 10 8 8.04 9.14 7.46 6.58
8 8 8 8 6.95 8.14 6.77 5.76
13 13 13 8 7.58 8.74 12.74 7.71
9 9 9 8 8.81 8.77 7.11 8.84
11 11 11 8 8.33 9.26 7.81 8.47
14 14 14 8 9.96 8.10 8.84 7.04
6 6 6 8 7.24 6.13 6.08 5.25
4 4 4 19 4.26 3.10 5.39 12.50
12 12 12 8 10.84 9.13 8.15 5.56
7 7 7 8 4.82 7.26 6.42 7.91
5 5 5 8 5.68 4.74 5.73 6.89

Ejemplo Anscombe’s Quartet

Ejemplo Anscombe’s Quartet

data(anscombe)
summary(anscombe)
##        x1             x2             x3             x4    
##  Min.   : 4.0   Min.   : 4.0   Min.   : 4.0   Min.   : 8  
##  1st Qu.: 6.5   1st Qu.: 6.5   1st Qu.: 6.5   1st Qu.: 8  
##  Median : 9.0   Median : 9.0   Median : 9.0   Median : 8  
##  Mean   : 9.0   Mean   : 9.0   Mean   : 9.0   Mean   : 9  
##  3rd Qu.:11.5   3rd Qu.:11.5   3rd Qu.:11.5   3rd Qu.: 8  
##  Max.   :14.0   Max.   :14.0   Max.   :14.0   Max.   :19  
##        y1               y2              y3              y4        
##  Min.   : 4.260   Min.   :3.100   Min.   : 5.39   Min.   : 5.250  
##  1st Qu.: 6.315   1st Qu.:6.695   1st Qu.: 6.25   1st Qu.: 6.170  
##  Median : 7.580   Median :8.140   Median : 7.11   Median : 7.040  
##  Mean   : 7.501   Mean   :7.501   Mean   : 7.50   Mean   : 7.501  
##  3rd Qu.: 8.570   3rd Qu.:8.950   3rd Qu.: 7.98   3rd Qu.: 8.190  
##  Max.   :10.840   Max.   :9.260   Max.   :12.74   Max.   :12.500

Ejemplo Anscombe’s Quartet

var(anscombe$x1)
## [1] 11
var(anscombe$x2)
## [1] 11
var(anscombe$y2)
## [1] 4.127629
var(anscombe$y4)
## [1] 4.123249

Ejemplo Anscombe’s Quartet

cor(anscombe$x1, anscombe$y1)
## [1] 0.8164205
cor(anscombe$x2, anscombe$y2)
## [1] 0.8162365
cor(anscombe$x3, anscombe$y3)
## [1] 0.8162867
cor(anscombe$x4, anscombe$y4)
## [1] 0.8165214

Histograma

Representación para variables continuas en forma de barras donde cada barra muestra la cantidad de obseraciones que caen en cada intervalo definido por la misma (barra).

Boxplot

Gráfico que muestra la posición de los máximos, mínimos, y cuartiles de la variable. Principalmente ayuda conocer: